2018-08-12

分布式集群

为了弥补性能的差距，一些研究人员已经把工作重点放在探索如何有效利用大规模并行处理器训练深度神经网络上面。

大多数扩展ImageNet训练的成功方法，都使用了同步随机梯度下降（SGD）。但是，为了扩展同步SGD，必须增加每次迭代中使用的批量的大小。

多机多卡扩展性差

深度训练通常采用数据并行模式，数据并行模式将样本分配给不同的GPU进行训练。相比模型并行，数据并行简单且可扩展，成为目前主流的分布式训练方式。

分布式训练数据并行模式下，经典的部署方式是独立的参数服务器（Parameter Server）来做训练过程中梯度的收集、分发和更新工作，每一次迭代所有的GPU都要与PS多次通信来获取、更新参数；当节点超过一定数量时，PS的带宽以及处理能力将成为整个系统的瓶颈。

AI训练系统和传统后台系统之间的一个最主要区别是，传统后台系统可以通过增加节点的方式来分担访问请求，节点之间没有强相关的关系；而AI训练系统在训练模型时需要参与训练的所有节点都不断的与模型参数服务器交换和更新数据。

所以如何在架构部署和算法层面减少对带宽需求，控制多机扩展中参数传输对训练速度的影响，使AI训练集群性能可线性扩展，是AI面临的另一项挑战。

疑问: 通常参数服务器是CPU还是GPU？

官方示例cifar10_multi_gpu中，采用CPU作为参数服务器进行收集(average_gradients)、分发、更新参数(apply_gradients)

超大规模GPU集群（1024+GPUs）线性扩展能力

参数更新去中心化

数据并行训练方式下，每一次迭代都需要做梯度规约，以TensorFlow为代表的经典分布式训练部署方式中，中心化的参数服务器（Parameter Server）承担了梯度的收集、平均和分发工作，这样的部署方式下PS的访问带宽容易成为瓶颈，严重影响可扩展性，机智团队最初应对方法是引入HPC领域常用的去中心化的Allreduce方式，然而目前流行的NCCL2或baidu-allreduce中的Allreduce采用的基于环形拓扑的通信方式，在超大规模GPU集群场景下数据通信会有很大的延时开销。

机智团队进一步将Allreduce算法进行了改进，并成功的部署在1024+GPUs的异构集群中，达到了理想的扩展效率。

去中心化的参数规约

原始版本的Ring Allreduce

利用分层同步和梯度分段融合优化Ring Allreduce

好复杂，后面再看…

扩展阅读

-4分钟训练ImageNet！腾讯创纪录 | 机器之心